Why Language Models Hallucinate

Citation

Kalai, Adam Tauman, et al. "Why language models hallucinate." arXiv preprint arXiv:2509.04664 (2025).

NotebookLM

この文書は、大規模言語モデル（LLMs）が「ハルシネーション（幻覚）」、すなわち不確実な状況でもっともらしいが誤った情報を作り出す現象の根本的な原因を解明するものです。著者は、ハルシネーションが訓練と評価のプロセスに起因すると論じています。具体的には、事前学習（pretraining）の段階で、生成エラーが二値分類における誤分類と統計的に関連しており、クロスエントロピー損失の最小化によってエラーが自然に発生することを示しています。さらに重要なのは、モデルの評価方法、特に不確実性の表明に罰則を与えるバイナリ採点（0-1スキーム）が、モデルに「テスト受験者」のように振る舞わせ、不確実でも推測することを奨励し、結果としてハルシネーションを永続させているという社会技術的な洞察を提供しています。この「流行」に対処するためには、ハルシネーションの専用評価を追加するのではなく、既存の主要なベンチマークの採点方法を修正し、不確実性の表明を適切に評価するように変更する必要があると提言しています。

関連

日本語記事

言語モデルでハルシネーションがおきる理由 | OpenAI｜2025年9月5日

当社の新しい調査報告⁠では、言語モデルでハルシネーションがおきる理由は、標準的な学習と評価の手順により、不確実性を認めるよりも、当て推量のほうに報酬が出るためだと論じています。

多くの評価におけるモデルのパフォーマンス測定方法が、不確実性に対する誠実さよりも推測を推奨するようになっています。これは多肢選択のテストのようなものです。答えがわからなくても、運が良ければ当てずっぽうで正解になるかもしれません。空のままにすれば間違いなくゼロ点です。これと同じように、モデルを正確性、つまり正しく回答した質問の割合についてのみ評価すると、モデルは「分かりません」と回答する代わりに推測することを選ぶようになります。

明快な修正方法があります。自信を持った間違いに不確実性よりも多くのペナルティを課すのです。さらに、不確実性を適切に表現した場合に点数の一部を与えます。